تسلط بر تجزیه و تحلیل داده های بزرگ با PySpark [ویدئو]

Mastering Big Data Analytics with PySpark [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: PySpark به شما کمک می کند تا تجزیه و تحلیل داده ها را در مقیاس انجام دهید. به شما امکان می دهد تحلیل ها و خطوط لوله مقیاس پذیرتری بسازید. این دوره با معرفی شما با پتانسیل PySpark برای انجام تجزیه و تحلیل موثر مجموعه داده های بزرگ شروع می شود. شما یاد خواهید گرفت که چگونه با Spark از پایتون تعامل داشته باشید و Jupyter را به Spark متصل کنید تا تصاویری غنی از داده ها ارائه دهید. پس از آن، به اجزای مختلف Spark و معماری آن خواهید پرداخت. شما کار با Apache Spark و انجام وظایف ML را روانتر از قبل خواهید آموخت. جمع آوری و پرس و جو داده ها با استفاده از Spark SQL، برای غلبه بر چالش های موجود در خواندن آن. برای کار با Spark MLlib و اطلاعات در مورد Pipeline API از DataFrame API استفاده خواهید کرد. در نهایت، ما نکات و ترفندهایی را برای استقرار کد و تنظیم عملکرد ارائه می دهیم. در پایان این دوره، شما نه تنها قادر به انجام تجزیه و تحلیل داده های کارآمد خواهید بود، بلکه یاد خواهید گرفت که از PySpark برای تجزیه و تحلیل آسان مجموعه داده های بزرگ در مقیاس در سازمان خود استفاده کنید. همه فایل‌های کد مرتبط در یک مخزن GitHub در آدرس زیر قرار می‌گیرند: https://github.com/PacktPublishing/Mastering-Big-Data-Analytics-with-PySpark با استفاده از موارد استفاده عملی، دانش کاملی از مفاهیم تجزیه و تحلیل داده‌های حیاتی به دست آورید. با استفاده از Jupyter تجسم داده های زیبا ایجاد کنید با استفاده از PySpark، تکه های بزرگی از مجموعه داده ها را اجرا، پردازش و تجزیه و تحلیل کنید از Spark SQL برای بارگذاری آسان داده های بزرگ در DataFrames استفاده کنید با استفاده از MLlib با Spark برنامه های یادگیری ماشینی سریع و مقیاس پذیر ایجاد کنید تجزیه و تحلیل داده های اکتشافی را به روشی مقیاس پذیر انجام دهید دستیابی به پردازش مقیاس پذیر، پرتوان و با تحمل خطا از جریان های داده با استفاده از Spark Streaming این دوره برای علاقه مندان به علم داده، دانشمندان داده، یا هر کسی که با مفاهیم یادگیری ماشین آشنایی دارد و می خواهد کار خود را در مقیاس بزرگی برای کار انجام دهد بسیار جذاب خواهد بود. با داده های بزرگ اگر تجزیه و تحلیل مجموعه داده های بزرگی که مدام در حال رشد هستند برایتان دشوار است، این دوره راهنمای عالی برای شماست! دانش کاری پایتون فرض شده است. مشکلات کلان داده خود را با ساختن مدل‌های یادگیری ماشین قدرتمند با Spark و پیاده‌سازی آن‌ها با استفاده از پایتون حل کنید * با کتابخانه‌ها و ابزارهای ضروری Spark (مانند PySpark، Spark Streaming، Spark SQL و Spark MLlib) راه‌اندازی و اجرا شوید. آنها را در برنامه های کاربردی داده های بزرگ در دنیای واقعی و عملی * Leverage Spark 2.x—یکی از محبوب ترین فن آوری های کلان داده—برای کشف اینکه Spark Machine Learning چقدر قدرتمند است که به راحتی می توانید آن را اعمال کنید!

سرفصل ها و درس ها

پایتون و جرقه: مسابقه ای ساخته شده در بهشت Python and Spark: A Match Made in Heaven

  • بررسی اجمالی دوره Course Overview

  • پایتون در مقابل اسپارک Python versus Spark

  • آماده شدن برای دوره Preparing for the Course

  • اتصال ژوپیتر به اسپارک Connecting Jupyter to Spark

کار با PySpark Working with PySpark

  • آشنایی با اسپارک Getting to Know Spark

  • قدرت جرقه The Power of Spark

  • قدرت Spark MLlib The Power of Spark MLlib

  • Spark DataFrames Spark DataFrames

  • عملیات داده اسپارک Spark Data Operations

آماده سازی داده ها با استفاده از Spark SQL Preparing Data Using Spark SQL

  • بارگیری داده ها از فایل های CSV Loading Data from CSV Files

  • رفع مشکلات در داده های ما - بخش اول Fixing Issues in Our Data – Part One

  • رفع مشکلات در داده های ما - قسمت دوم Fixing Issues in Our Data – Part Two

  • گروه بندی، پیوستن و تجمیع - بخش اول Grouping, Joining, and Aggregating – Part One

  • گروه بندی، پیوستن و تجمیع - بخش دوم Grouping, Joining, and Aggregating – Part Two

یادگیری ماشین با Spark MLlib Machine Learning with Spark MLlib

  • یادگیری ماشینی با اسپارک Machine Learning with Spark

  • ساختن یک سیستم توصیه با Spark MLlib – قسمت اول Building a Recommendation System with Spark MLlib – Part One

  • ساختن یک سیستم توصیه با Spark MLlib – قسمت دوم Building a Recommendation System with Spark MLlib – Part Two

  • ساختن یک سیستم توصیه با Spark MLlib – قسمت سوم Building a Recommendation System with Spark MLlib – Part Three

  • نهایی کردن سیستم توصیه ما Finalizing our Recommendation System

  • آنچه تا کنون آموخته ایم What We Have Learned So Far

طبقه بندی و رگرسیون Classification and Regression

  • یادگیری ماشینی با اسپارک Machine Learning with Spark

  • خطوط لوله یادگیری ماشین Machine Learning Pipelines

  • اجرای خط لوله رگرسیون لجستیک Running a Logistic Regression Pipeline

  • پارامترها، ویژگی ها و ماندگاری Parameters, Features, and Persistence

  • استخراج الگوی مکرر و آمار Frequent Pattern Mining and Statistics

تجزیه و تحلیل داده های بزرگ Analyzing Big Data

  • پردازش زبان طبیعی با اسپارک Natural Language Processing with Spark

  • شناسایی داده های ما Identifying Our Data

  • آماده سازی و اکتشاف داده ها Data Preparation and Exploration

  • ایجاد داده های آموزشی خام ما Creating Our Raw Training Data

پردازش زبان طبیعی در اسپارک Processing Natural Language in Spark

  • آماده سازی داده ها و عبارات منظم Data Preparation and Regular Expressions

  • پاکسازی و تبدیل داده ها Data Cleaning and Transformation

  • آموزش مدل تحلیل احساسات – بخش اول Training a Sentiment Analysis Model – Part One

  • آموزش مدل تحلیل احساسات – قسمت دوم Training a Sentiment Analysis Model – Part Two

یادگیری ماشینی در زمان واقعی Machine Learning in Real-Time

  • واکشی داده ها از توییتر Fetching Data from Twitter

  • جریان ساختار یافته جرقه Spark Structured Streaming

  • مدیریت و تبدیل جریان ها Managing and Converting Streams

  • مونتاژ راه حل جریان ML ما Assembling Our Streaming ML Solution

  • رویکردی ساختاریافته به جریان ML A Structured Approach to ML Streaming

قدرت PySpark The Power of PySpark

  • Running Spark در تولید Running Spark in Production

  • در حال اجرا جرقه در مقیاس Running Spark at Scale

  • نکات، ترفندها، و حذفیات Tips, Tricks, and Take-Aways

نمایش نظرات

تسلط بر تجزیه و تحلیل داده های بزرگ با PySpark [ویدئو]
جزییات دوره
8 h 7 m
41
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
Danny Meijer
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Danny Meijer Danny Meijer

دنی مایجر به عنوان مهندس ارشد داده در هلند برای بخش داده و تجزیه و تحلیل یک خرده فروش پیشرو کالاهای ورزشی کار می کند. او یک متخصص فرآیندهای کسب و کار، دانشمند داده های بزرگ و علاوه بر این یک مهندس داده است که ترکیبی منحصر به فرد از مهارت ها را به او می دهد - که مهمترین آنها اولین رویکرد تجاری او به علم داده و مهندسی داده است. او بیش از 13 سال تجربه فناوری اطلاعات در حوزه‌ها و مهارت‌های مختلف از مدل‌سازی داده‌های (بزرگ)، معماری، طراحی، و توسعه و همچنین مدیریت پروژه و فرآیند دارد. او همچنین تجربه گسترده ای در فرآیند کاوی، مهندسی داده روی داده های بزرگ و بهبود فرآیند دارد. او به عنوان یک دانشمند معتبر داده و متخصص داده های بزرگ، راه خود را در مورد داده ها و تجزیه و تحلیل می داند و در انواع زبان های برنامه نویسی مهارت دارد. او تجربه گسترده ای با فناوری های مختلف داده های بزرگ دارد و به همه چیز مسلط است: NoSQL، Hadoop، Python و البته Spark. دنی یک فرد رانده است که با همه داده ها و کلان داده ها انگیزه دارد. او عاشق ریاضیات و یادگیری ماشینی و مقابله با مسائل دشوار است.